Out-of-distribution (OOD) generalisation aims to build a model that can well generalise its learnt knowledge from source domains to an unseen target domain. However, current image classification models often perform poorly in the OOD setting due to statistically spurious correlations learning from model training. From causality-based perspective, we formulate the data generation process in OOD image classification using a causal graph. On this graph, we show that prediction P(Y|X) of a label Y given an image X in statistical learning is formed by both causal effect P(Y|do(X)) and spurious effects caused by confounding features (e.g., background). Since the spurious features are domain-variant, the prediction P(Y|X) becomes unstable on unseen domains. In this paper, we propose to mitigate the spurious effect of confounders using front-door adjustment. In our method, the mediator variable is hypothesized as semantic features that are essential to determine a label for an image. Inspired by capability of style transfer in image generation, we interpret the combination of the mediator variable with different generated images in the front-door formula and propose novel algorithms to estimate it. Extensive experimental results on widely used benchmark datasets verify the effectiveness of our method.
translated by 谷歌翻译
无数据知识蒸馏(DFKD)最近引起了人们的关注,这要归功于其在不使用培训数据的情况下将知识从教师网络转移到学生网络的吸引力。主要思想是使用发电机合成数据以培训学生。随着发电机的更新,合成数据的分布将发生变化。如果发电机和学生接受对手的训练,使学生忘记了先前一步获得的知识,则这种分配转换可能会很大。为了减轻这个问题,我们提出了一种简单而有效的方法,称为动量对抗蒸馏(MAD),该方法维持了发电机的指数移动平均值(EMA)副本,并使用发电机和EMA生成器的合成样品来培训学生。由于EMA发电机可以被视为发电机旧版本的合奏,并且与发电机相比,更新的更改通常会发生较小的变化,因此对其合成样本进行培训可以帮助学生回顾过去的知识,并防止学生适应太快的速度发电机的新更新。我们在六个基准数据集上进行的实验,包括ImageNet和Place365,表明MAD的性能优于竞争方法来处理大型分配转移问题。我们的方法还与现有的DFKD方法相比,甚至在某些情况下达到了最新的方法。
translated by 谷歌翻译
知识蒸馏(KD)是一种有效的方法,可以将知识从大型“教师”网络转移到较小的“学生”网络。传统的KD方法需要大量标记的培训样本和白盒老师(可以访问参数)才能培训好学生。但是,这些资源并不总是在现实世界应用中获得。蒸馏过程通常发生在我们无法访问大量数据的外部政党方面,并且由于安全性和隐私问题,教师没有披露其参数。为了克服这些挑战,我们提出了一种黑盒子少的KD方法,以培训学生很少的未标记培训样本和一个黑盒老师。我们的主要思想是通过使用混合和有条件的变异自动编码器生成一组不同的分布合成图像来扩展训练集。这些合成图像及其从老师获得的标签用于培训学生。我们进行了广泛的实验,以表明我们的方法在图像分类任务上明显优于最近的SOTA/零射击KD方法。代码和型号可在以下网址找到:https://github.com/nphdang/fs-bbt
translated by 谷歌翻译
对基于深度学习的模型的对抗性攻击对当前的AI基础架构构成了重大威胁。其中,特洛伊木马袭击是最难防御的。在本文中,我们首先引入了Badnet类型的攻击变体,该攻击将特洛伊木马后门引入多个目标类,并允许将触发器放置在图像中的任何位置。前者使其更有效,后者使在物理空间中进行攻击变得非常容易。这种威胁模型的最先进的特洛伊木马检测方法失败了。为了防止这种攻击,我们首先引入了一种触发反向工程机制,该机制使用多个图像来恢复各种潜在的触发器。然后,我们通过测量此类恢复触发器的可传递性提出了检测机制。特洛伊木马触发器的可传递性将非常高,即它们使其他图像也进入同一类。我们研究攻击方法的许多实际优势,然后使用各种图像数据集证明检测性能。实验结果表明,我们方法的卓越检测性能超过了最新的。
translated by 谷歌翻译
我们为策略梯度强化学习引入了一种约束的优化方法,该方法使用虚拟信任区域来调节每个策略更新。除了将一个单一旧政策作为正常信任区域的邻近性外,我们还建议通过另一个虚拟策略形成第二个信任区域,代表了过去的各种过去的政策。然后,我们执行新政策,以保持更靠近虚拟政策,如果旧政策的运作差,这将是有益的。更重要的是,我们提出了一种机制,可以自动从过去政策的记忆中自动构建虚拟策略,从而为在优化过程中动态学习适当的虚拟信任区域提供了新的能力。我们提出的方法是在不同的环境中进行检查,包括机器人运动控制,带有稀疏奖励和Atari游戏的导航,始终如一地证明了针对最近的上政策限制性策略梯度方法,在各种环境中进行了检查。
translated by 谷歌翻译
特洛伊木马对深度神经网络的攻击既危险又秘密。在过去的几年中,特洛伊木马的攻击从仅使用单个输入 - 不知不线的触发器和仅针对一个类别使用多个输入特异性触发器和定位多个类的类别。但是,特洛伊木马的防御尚未赶上这一发展。大多数防御方法仍然使对特洛伊木马触发器和目标类别的假设不足,因此,现代特洛伊木马的攻击很容易被规避。为了解决这个问题,我们提出了两种新颖的“过滤”防御措施,称为变分输入过滤(VIF)和对抗输入过滤(AIF),它们分别利用有损数据压缩和对抗性学习,以有效地纯化潜在的Trojan触发器,而无需在运行时间内触发潜在的Trojan触发器。对触发器/目标类的数量或触发器的输入依赖性属性做出假设。此外,我们还引入了一种称为“过滤 - 对抗性”(FTC)的新防御机制,该机制有助于避免通过“过滤”引起的清洁数据的分类准确性下降,并将其与VIF/AIF结合起来,从种类。广泛的实验结果和消融研究表明,我们提议的防御能力在减轻五次高级特洛伊木马攻击方面显着优于众所周知的基线防御能力,包括最近的两次最新一次,同时对少量训练数据和大型触发器非常强大。
translated by 谷歌翻译
我们为政策梯度方法介绍了一种新颖的训练程序,其中用于在飞行中优化强化学习算法的超参数。与其他HyperParameter搜索不同,我们将HyperParameter调度标记为标准的Markov决策过程,并使用epiSodic内存来存储所使用的超参数和培训背景的结果。在任何策略更新步骤中,策略学习者都指的是存储的经验,并自适应地将其学习算法与存储器确定的新的超参数重新配置。这种机制被称为epiSodic政策梯度训练(EPGT),可以联合学习单个运行中的策略和学习算法的封面。连续和离散环境的实验结果证明了利用所提出的方法促进各种政策梯度算法的性能的优点。
translated by 谷歌翻译
进程感知的推荐系统可以提供关键的决策支持功能,以帮助通过推荐接下来采取的操作来执行业务流程执行。基于深度学习领域的最近进步,我们介绍了一种基于新的内存增强神经网络(MANN)构建过程感知推荐系统。我们提出了一种新颖的网络架构,即写保护的双控制器存储器增强神经网络(DCW-MANN),用于构建规范模型。为了评估我们方法的可行性和有用性,我们考虑了三个现实世界数据集,并表明我们的方法在后缀推荐和下一个任务预测任务的几个基线上导致更好的性能。
translated by 谷歌翻译
Most existing text-video retrieval methods focus on cross-modal matching between the visual content of offline videos and textual query sentences. However, in real scenarios, online videos are frequently accompanied by relevant text information such as titles, tags, and even subtitles, which can be utilized to match textual queries. This inspires us to generate associated captions from offline videos to help with existing text-video retrieval methods. To do so, we propose to use the zero-shot video captioner with knowledge of pre-trained web-scale models (e.g., CLIP and GPT-2) to generate captions for offline videos without any training. Given the captions, one question naturally arises: what can auxiliary captions do for text-video retrieval? In this paper, we present a novel framework Cap4Video, which makes use of captions from three aspects: i) Input data: The video and captions can form new video-caption pairs as data augmentation for training. ii) Feature interaction: We perform feature interaction between video and caption to yield enhanced video representations. iii) Output score: The Query-Caption matching branch can be complementary to the original Query-Video matching branch for text-video retrieval. We conduct thorough ablation studies to demonstrate the effectiveness of our method. Without any post-processing, our Cap4Video achieves state-of-the-art performance on MSR-VTT (51.4%), VATEX (66.6%), MSVD (51.8%), and DiDeMo (52.0%).
translated by 谷歌翻译
The problem of detecting the Out-of-Distribution (OoD) inputs is of paramount importance for Deep Neural Networks. It has been previously shown that even Deep Generative Models that allow estimating the density of the inputs may not be reliable and often tend to make over-confident predictions for OoDs, assigning to them a higher density than to the in-distribution data. This over-confidence in a single model can be potentially mitigated with Bayesian inference over the model parameters that take into account epistemic uncertainty. This paper investigates three approaches to Bayesian inference: stochastic gradient Markov chain Monte Carlo, Bayes by Backpropagation, and Stochastic Weight Averaging-Gaussian. The inference is implemented over the weights of the deep neural networks that parameterize the likelihood of the Variational Autoencoder. We empirically evaluate the approaches against several benchmarks that are often used for OoD detection: estimation of the marginal likelihood utilizing sampled model ensemble, typicality test, disagreement score, and Watanabe-Akaike Information Criterion. Finally, we introduce two simple scores that demonstrate the state-of-the-art performance.
translated by 谷歌翻译